Google susține că inteligența sa text-to-image oferă un „fotorealism fără precedent”: ce este Imagen

de: Ozana Mazilu

25 05. 2022

Imagen este versiunea companiei a DALL-E de la OpenAI, dar nu este disponibilă publicului.

Google a prezentat un sistem de inteligență artificială care poate crea imagini bazate pe introducerea textului. Ideea este că utilizatorii pot introduce orice text descriptiv și AI îl va transforma într-o imagine. Compania spune că modelul Imagen, creat de Brain Team de la Google Research, oferă „un grad fără precedent de fotorealism și un nivel profund de înțelegere a limbajului”.

Nu este prima dată când vedem modele AI ca acesta. DALL-E de la OpenAI (și succesorul său) a generat titluri, precum și imagini, pentru că este destul de abil încât poate transforma textul în imagini. Versiunea Google, însă, încearcă să creeze imagini mai realiste.

Pentru a evalua Imagen în comparație cu alte modele text-to-image (inclusiv DALL-E 2, VQ-GAN+CLIP și modele de difuzie latentă), cercetătorii au creat un punct de referință numit DrawBench. Aceasta este o listă de două sute de solicitări text care au fost introduse în fiecare model. Evaluatorii umani au fost rugați să evalueze fiecare imagine.

Ei „preferă Imagen față de alte modele, atât în ceea ce privește calitatea eșantionului, cât și alinierea imagine-text”, a spus Google.

Este demn de remarcat faptul că exemplele prezentate pe site-ul Imagen sunt organizate. Ca atare, acestea pot fi cele mai bune dintre cele mai bune imagini pe care modelul le-a creat.

La fel ca DALL-E, Imagen nu este disponibilă publicului. Google nu crede că este încă potrivit pentru utilizare de către populația generală din mai multe motive. În primul rând, modelele text-to-image sunt de obicei antrenate pe seturi de date mari care sunt luate de pe web și nu sunt “curățate”, ceea ce introduce o serie de probleme.

Imagen de la Google încă nu e disponibilă publicului larg

„Deși această abordare a permis progrese algoritmice rapide în ultimii ani, seturile de date de această natură reflectă adesea stereotipuri sociale, puncte de vedere opresive și asocieri derogatorii sau dăunătoare în alt mod cu grupurile de identitate marginalizate”, au scris cercetătorii.

„În timp ce un subset al datelor noastre de antrenament a fost filtrat pentru a elimina conținutul nedorit, cum ar fi imagini pornografice și limbaj toxic, am folosit și setul de date LAION-400M, despre care se știe că conține o gamă largă de conținut neadecvat, inclusiv imagini pornografice, insulte rasiste și stereotipuri sociale dăunătoare”.

Drept urmare, au spus ei, Imagen a moștenit „prejudecățile sociale și limitările modelelor mari de limbaj” și poate descrie „stereotipuri și reprezentare dăunătoare”. Echipa a spus că descoperirile preliminare au indicat că IA codifică prejudecăți sociale, inclusiv tendința de a crea imagini cu persoane cu tonuri mai deschise ale pielii și de a le plasa în anumite roluri de gen stereotipe. În plus, cercetătorii observă că există potențialul de utilizare greșită dacă Imagen ar fi pusă la dispoziția publicului așa cum este acum.

Totuși, echipa poate permite publicului să introducă text într-o versiune a modelului pentru a-și genera propriile imagini: „În lucrările viitoare, vom explora un cadru pentru externalizarea responsabilă care echilibrează valoarea auditului extern cu riscurile accesului deschis nerestricționat”, au spus cercetătorii.

Totuși, puteți încerca Imagen pe o bază limitată. Pe site-ul său, puteți crea o descriere folosind expresii preselectate. Utilizatorii pot selecta dacă imaginea trebuie să fie o fotografie sau o pictură în ulei, tipul de animal afișat, îmbrăcămintea pe care o poartă, acțiunea pe care o întreprind și decorul.

Așadar, dacă ți-ai dorit vreodată să vezi o interpretare a unei picturi în ulei care înfățișează un panda care poartă ochelari de soare și o jachetă de piele neagră în timp ce se dă cu skateboard-ul pe o plajă, iată șansa ta.

Articole recomandate